1 项目背景
近年来,随着高通量测序技术的发展,三代测序逐渐成为基因组研究的新兴手段。Pacbio、Nanopore等第三代测序技术有效的解决了二代测序读长短,无法跨过基因组高重复区域的问题。当下,Nanopore测序技术作为三代测序的后起之秀,因其读长长、产出高、价格低的优势开始被广泛应用于测序界。该平台利用纳米孔进行实时测序,没有读长限制,可以直接读取超长片段的序列信息,得到超长的reads。
1.1 Nanopore测序平台
诺禾致源引入的基于Nanopore测序原理的PromethION平台是继便携式MinION和台式设备GridION之后Oxford Nanopore Technologies(简称ONT)推出的最新超高通量测序仪。PromethION具有48个独立测序芯片,可以单独或同时运行,每张测序芯片包含多达3000个有效通道,一次总共可有多达144000个有效通道进行测序。该平台具有测序通量高、测序成本低、测序周期短等特点。
1.2 Nanopore测序原理
Nanopore测序即纳米孔测序,其原理是:纳米孔蛋白作为生物传感器,插入由合成聚合物形成的膜中。此外,核酸分子会与马达蛋白(Motor Protein)连接,该马达蛋白一方面对双链进行解链,使核酸单链在电泳的作用下通过特定的纳米孔蛋白,另一方面可控制DNA/RNA分子的移动速度,保证碱基逐一地穿过纳米孔,产生稳定可靠的电信号。由于不同碱基的带电性质不同,通过检测电信号的差异就能检测出通过纳米孔的碱基类别,实现测序。

Figure. 1 Nanopore测序原理
1.3 Nanopore测序优势
1. 超长的测序读长,平均读长大于15Kb,最长读长能达到2M,可以跨域大范围的基因组重复区域进行测序,减少组装错误;
2. 更高的测序通量,PromethION平台的测序芯片包含多达3000个有效通道,一次总共可有多达144000(3000 * 48)个有效通道进行测序,平均单个cell产出在40-60Gb;
3. 无PCR扩增偏向性,建库过程中不需要进行DNA的PCR扩增,避免了覆盖度不均一及PCR冗余.
2 建库测序流程
从DNA样品到最终数据获得,样品检测、建库、测序每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果。为了从源头上保证测序数据的准确性、可靠性,诺禾致源对样品检测、建库、测序每一个生产步骤都严格把控,从根本上确保了高质量数据的产出。
2.1 DNA样品检测
诺禾致源对DNA样品的检测主要包括2种方法:
(a)脉冲场电泳分析DNA降解程度以及是否有污染;
(b)Qubit对DNA浓度进行精确定量。
样品质量标准如下:

图2 样品质量标准
2.2 文库构建
基因组DNA可以选择是否通过Covaris g-TUBE来打断和片段筛选。经损伤修复和加A尾后,再在片段两端分别连接测序接头,制备DNA文库,如图所示:

图3 ONT建库过程
2.3 上机测序
库检合格,根据文库的有效浓度及数据产出需求使用PromethION平台进行测序。
3 结果展示及说明
3.1 原始数据处理
PromethION测序平台是基于纳米孔的单分子实时测序技术,原始测序数据为Fast5格式文件,其中包括了测序时的电信号值等数据,我们采用Guppy软件对该文件进行basecalling得到碱基信息,储存为Fastq文件,并进行后续的分析。
3.2 Nanopore数据统计
对basecalling得到的数据采用软件NanoPlot进行质控及数据过滤,我们对下机得到的reads统计结果见表2、3及图3、4:
Table 1. Raw Data Summary
| Sample | Total Bases | Active channels | Number of reads | Median read length | Read length N50 | Median read quality | >Q7 number(%) |
|---|---|---|---|---|---|---|---|
| SampleA | 16,547,274,697.0 | 2,626.0 | 1,405,147.0 | 11,270.0 | 19,037.0 | 6.9 | 664469(47.3%) |
| SampleB | 1,805,290,266.0 | 2,276.0 | 191,701.0 | 7,235.0 | 16,754.0 | 5.2 | 19702(10.3%) |
Table 2. Top 5 longest reads
| Sample | Top 5 read_lengths (mean_basecall_quality; reads_id) |
|---|---|
| SampleA | 103499 (6.6; c4a40871-3586-4ae6-bb73-6b3ccc90d9f3) 101708 (6.8; e414fc51-f10e-4817-830e-712b86189d8c) 96305 (2.5; 91d23d8e-16bf-4726-9df2-d2f367db8a14) 87473 (9.0; e1cd695b-db43-4fc9-b390-918e31a1ec08) 86531 (6.9; 6951f729-d9fa-4e4f-940b-c8a9f67d6867) |
| SampleB | 83613 (6.7; ea97e918-2252-4f6c-8e61-b726d2694f0f) 81463 (7.4; ddcb289f-afa4-4b8f-bd11-1429291573af) 66369 (7.9; 86c6dda0-51fb-4cb4-93e7-0fcb883a91c3) 66000 (6.6; 2e537612-a7a3-492c-9528-cb66971840b6) 65345 (5.5; a2650e9e-1c18-4bea-b2d8-66874b0ba6e3) |
图4 读长分布直方图
图5 读长及平均质量值分布图
4 Note
1. Open the result file with a professional text editor, such as Excel or EditPlus.
2. The Chrome web browser is recommended to open the HTML-based report.
3. Click the Novogene icon or the lower right button to return to the front page.
5 References
[1] Van Broeckhoven C, Cruts M, De Coster W, et al. NanoPack: visualizing and processing long-read sequencing data[J]. Bioinformatics, 2018, 34(15): 2666-2669.
[2] Leggett R M, Clark M D. A world of opportunities with nanopore sequencing[J]. Journal of experimental botany, 2017, 68(20): 5419-5429.
[3] Van Dijk E L, Jaszczyszyn Y, Naquin D, et al. The Third Revolution in Sequencing Technology[J]. Trends in Genetics, 2018.
